这项研究使用来自不同模式的小配对数据实现了描述和动作之间的双向翻译。相互生成描述和动作的能力对于机器人在日常生活中与人类合作至关重要,这通常需要一个大型数据集,该数据集可维护两种模态数据的全面对。但是,配对的数据集构造昂贵,很难收集。为了解决这个问题,本研究提出了一种双向翻译的两阶段培训方法。在提出的方法中,我们训练经常性的自动编码器(RAES),以使用大量非生产数据进行描述和动作。然后,我们对整个模型进行了修订,以使用小配对数据绑定其中间表示。由于用于培训预训练的数据不需要配对,因此可以使用仅行为的数据或大型语言语料库。我们使用由运动捕获动作和描述组成的配对数据集对我们的方法进行了实验评估。结果表明,即使要训练的配对数据量很小,我们的方法也表现良好。每个RAE的中间表示的可视化表明,相似的作用是在簇位置上编码的,并且相应的特征向量很好地排列。
translated by 谷歌翻译
This paper proposes a novel sequence-to-sequence (seq2seq) model with a musical note position-aware attention mechanism for singing voice synthesis (SVS). A seq2seq modeling approach that can simultaneously perform acoustic and temporal modeling is attractive. However, due to the difficulty of the temporal modeling of singing voices, many recent SVS systems with an encoder-decoder-based model still rely on explicitly on duration information generated by additional modules. Although some studies perform simultaneous modeling using seq2seq models with an attention mechanism, they have insufficient robustness against temporal modeling. The proposed attention mechanism is designed to estimate the attention weights by considering the rhythm given by the musical score. Furthermore, several techniques are also introduced to improve the modeling performance of the singing voice. Experimental results indicated that the proposed model is effective in terms of both naturalness and robustness of timing.
translated by 谷歌翻译
Classification bandits are multi-armed bandit problems whose task is to classify a given set of arms into either positive or negative class depending on whether the rate of the arms with the expected reward of at least h is not less than w for given thresholds h and w. We study a special classification bandit problem in which arms correspond to points x in d-dimensional real space with expected rewards f(x) which are generated according to a Gaussian process prior. We develop a framework algorithm for the problem using various arm selection policies and propose policies called FCB and FTSV. We show a smaller sample complexity upper bound for FCB than that for the existing algorithm of the level set estimation, in which whether f(x) is at least h or not must be decided for every arm's x. Arm selection policies depending on an estimated rate of arms with rewards of at least h are also proposed and shown to improve empirical sample complexity. According to our experimental results, the rate-estimation versions of FCB and FTSV, together with that of the popular active learning policy that selects the point with the maximum variance, outperform other policies for synthetic functions, and the version of FTSV is also the best performer for our real-world dataset.
translated by 谷歌翻译
Diagnostic radiologists need artificial intelligence (AI) for medical imaging, but access to medical images required for training in AI has become increasingly restrictive. To release and use medical images, we need an algorithm that can simultaneously protect privacy and preserve pathologies in medical images. To develop such an algorithm, here, we propose DP-GLOW, a hybrid of a local differential privacy (LDP) algorithm and one of the flow-based deep generative models (GLOW). By applying a GLOW model, we disentangle the pixelwise correlation of images, which makes it difficult to protect privacy with straightforward LDP algorithms for images. Specifically, we map images onto the latent vector of the GLOW model, each element of which follows an independent normal distribution, and we apply the Laplace mechanism to the latent vector. Moreover, we applied DP-GLOW to chest X-ray images to generate LDP images while preserving pathologies.
translated by 谷歌翻译
从出生到死亡,由于老化,我们都经历了令人惊讶的无处不在的变化。如果我们可以预测数字领域的衰老,即人体的数字双胞胎,我们将能够在很早的阶段检测病变,从而提高生活质量并延长寿命。我们观察到,没有一个先前开发的成年人体数字双胞胎在具有深层生成模型的体积医学图像之间明确训练的纵向转换规则,可能导致例如心室体积的预测性能不佳。在这里,我们建立了一个新的成人人体的数字双胞胎,该数字双胞胎采用纵向获得的头部计算机断层扫描(CT)图像进行训练,从而从一个当前的体积头CT图像中预测了未来的体积头CT图像。我们首次采用了三维基于流动的深层生成模型之一,以实现这种顺序的三维数字双胞胎。我们表明,我们的数字双胞胎在相对较短的程度上优于预测心室体积的最新方法。
translated by 谷歌翻译
自动基于图像的疾病严重程度估计通常使用离散(即量化)严重性标签。由于图像含糊不清,因此通常很难注释离散标签。一个更容易的替代方法是使用相对注释,该注释比较图像对之间的严重程度。通过使用带有相对注释的学习对框架,我们可以训练一个神经网络,该神经网络估计与严重程度相关的等级分数。但是,所有可能对的相对注释都是过敏的,因此,适当的样品对选择是强制性的。本文提出了深层贝叶斯的主动学习与级别,该级别训练贝叶斯卷积神经网络,同时自动选择合适的对进行相对注释。我们通过对溃疡性结肠炎的内窥镜图像进行实验证实了该方法的效率。此外,我们确认我们的方法即使在严重的类失衡中也很有用,因为它可以自动从次要类中选择样本。
translated by 谷歌翻译
我们提出了一项对基于自我监督的语音表示(S3R)语音转换(VC)的大规模比较研究。在识别合成VC的背景下,S3RS由于其替代昂贵的监督表示的潜力,例如语音后验(PPG),因此很有吸引力,这些表示是由最先进的VC系统采用的。使用先前开发的开源VC软件S3PRL-VC,我们在三种VC设置下提供了一系列深入的目标和主观分析:内部/跨语义的任何一对一(A2O)和任何对象 - 使用语音转换挑战2020(VCC2020)数据集。我们在各个方面研究了基于S3R的VC,包括模型类型,多语言和监督。我们还研究了通过K-均值聚类的滴定过程的效果,并展示了其在A2A设置中的改进。最后,与最先进的VC系统的比较证明了基于S3R的VC的竞争力,并阐明了可能的改进方向。
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
负抽样(NS)损失在学习知识图嵌入(KGE)中起着重要的作用,以处理大量实体。但是,适当地选择了KGE降低没有超参数的降解,例如NS损失中的余量和负样本的数量。目前,经验超参数调整以计算时间为代价解决了这个问题。为了解决这个问题,我们理论上分析了NS损失,以帮助高参数调整,并了解NS损失在KGE学习中的更好使用。我们的理论分析表明,具有限制值范围的评分方法,例如transe和旋转,需要适当调整边缘项或与没有限制值范围(例如恢复,复杂和散布)的负相同样本的数量。我们还提出了从理论方面研究的KGE中专门用于NS损失的亚采样方法。我们对FB15K-237,WN18RR和Yago3-10数据集的经验分析表明,实际训练的模型的结果与我们的理论发现一致。
translated by 谷歌翻译